Model Selection

Multilingual visual understanding

# Multilingual visual understanding

Qwen2.5 VL 72B Instruct GGUF

A multimodal large model launched by Tongyi Qianwen, supporting image and text generation and 128k long context processing, with multilingual capabilities.

Image-to-Text English

lmstudio-community

Aya Vision 32B is an open-weight 32B parameter multimodal model developed by Cohere Labs, supporting vision-language tasks in 23 languages.

Transformers Supports Multiple Languages

Aya Vision 8B is an open-weight 8-billion-parameter multilingual vision-language model supporting visual and language tasks in 23 languages.

Transformers Supports Multiple Languages

Llama 3.2 11B Vision Instruct Abliterated 8 Bit

This is a multimodal model based on Llama-3.2-11B-Vision-Instruct, which supports image and text input and generates text output.

Transformers Supports Multiple Languages

Pix2struct Screen2words Base

Pix2Struct is a vision-language understanding model optimized for generating functional description captions from UI interface screenshots

Transformers Supports Multiple Languages

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase